iT邦幫忙

2023 iThome 鐵人賽

DAY 6
0
AI & Data

30天輕鬆搞定資料分析系列 第 6

DAY-6 數理統計學

  • 分享至 

  • xImage
  •  

有資料以後,要思考什麼是最常見或可觀的預測?限制條件有什麼?我們需要借助統計學工具得出結論。
下面會分這6點進行簡單的介紹,更深層的統計學知識會放在後面的內容:

  • 集中趨勢
  • 變異
  • 常態分佈、抽樣分佈
  • 假設檢定、T檢定
  • 估計
  • 標準化、歸一化

1. 集中趨勢:描述數據集中在哪個值附近的概念。

平均值(Mean):所有數據點的總和 除 數據點的總數。對極端值較敏感。
中位數(Median):中間值,按大小排序後,中間就是中位數。對極端值較不敏感。
眾數(Mode):數據集中出現最多的值,一筆數據可有0至多個眾數。

2. 變異:用來衡量數據點之間的差異程度。

四分位數(Quartiles):將一個數據集分四等分(Q1,Q2,Q3,Q4),每部分25%。Q3和Q1間的距離即為四分位距。
異常值(Outliers):與其他數據點相比有明顯不同的極端值,可能因為測量錯誤引起,需判斷是否保留。
變異數(Variance):衡量變異性的指標,計算每個數據與平均值的差的平方的平均值,越大代表越分散。

3. 常態分佈、抽樣分佈:

常態分佈(高斯分佈):一種連續型機率分布。以算數平均數作為中心,呈鐘形曲線左右對稱,中心數值出現頻率最高。
抽樣分佈:由隨機抽樣的樣本統統量所形成的機率分佈。其中,中央極限定理是統計學很重要的理論,從任何母體中抽取大量樣本時,這些樣本的平均值的抽樣分佈將近似於常態分佈。

4. 假設檢定、t檢定:

假設檢驗(虛無假設H0、對立假設H1):先對母體參數提出假設,然後利用樣本的資訊再決定是否接受或否決。
t檢驗:用於比較兩個樣本平均值是否存在統計上的差異。常見三種:獨立樣本t檢定、配對樣本t檢定和單樣本t檢定。

5. 估計:估計母體參數的方法。

點估計(Point Estimation):使用單一的值來估計未知的母群體參數,計算一具體數值做估計值。
區間估計(Interval Estimation):通過計算信賴區間來估計母體參數範圍,通常使用顯著水平來表示信賴區間的置信程度。

6. 標準化、歸一化:把數據縮小範圍但不影響原始數據分佈。

歸一化:把原始數據按比例縮放至[0,1]之間。
標準化:歸一化的一種,也稱為Z-score歸一化。將數據轉換成具有特定平均值和標準差的分佈,使數據的分佈均值為0,標準差為1。

以上就是6個統計學裡相當重要的概念,講完一些資料分析的相關理論後,明天要正式進入實作階段嚕!


上一篇
DAY-5 資料庫原理,SQL!:資料從哪裡來?如何取資料?
下一篇
DAY-7 從python開始(1):基本設置,Colab,語法
系列文
30天輕鬆搞定資料分析30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言